我们解决了用草图和文本查询检索图像的问题。我们提出任务形成器(文本和草图变压器),这是一种可使用文本说明和草图作为输入的端到端训练模型。我们认为,两种输入方式都以一种单独的方式无法轻易实现的方式相互补充。任务形成器遵循延迟融合双编码方法,类似于剪辑,该方法允许有效且可扩展的检索,因为检索集可以独立于查询而独立于索引。我们从经验上证明,与传统的基于文本的图像检索相比,除文本外,使用输入草图(甚至是绘制的草图)大大增加了检索召回。为了评估我们的方法,我们在可可数据集的测试集中收集了5,000个手绘草图。收集的草图可获得https://janesjanes.github.io/tsbir/。
translated by 谷歌翻译
我们讨论了多尺度Fisher对Gorsky和MA(2022)提出的多变量依赖的独立性测试,与基于Hilbert-Schmidt独立标准(HSIC)的现有线性时间内核测试相比。我们强调了这样一个事实,即在任何有限样本量的内核测试水平都可以得到准确控制,就像多率级别一样。在我们的实验中,我们观察到测试能力方面的一些性能限制。
translated by 谷歌翻译